Loading...
机构名称:
¥ 2.0

无监督的视频对象细分(VOS)旨在识别视频中主要前景的轮廓,而没有任何先验知识。但是,以前的方法并未完全使用时空上下文,也无法实时解决这项具有挑战性的任务。这促使我们从整体视图中开发出有效的hort hort T emporal t Ttention网络(称为LSTA),以实现无监督的VOS任务。特定于LSTA由两个主导模块组成,即长时间记忆和短暂的时间关注。前者捕获了过去框架和当前框架的长期全局像素关系,该框架通过编码外观模式不断地呈现对象。同时,后者揭示了一个附近框架和当前框架的短期局部像素关系,该框架通过编码运动模式来模拟移动对象。为加速推断,采用了有效的投影和基于局部性的滑动窗口,以分别实现两个光模块的几乎线性时间复杂性。对几个基准测试的广泛实证研究表明,提出的方法具有很高的效率。

arxiv:2309.11707V1 [CS.CV] 21 Sep 2023

arxiv:2309.11707V1 [CS.CV] 21 Sep 2023PDF文件第1页

arxiv:2309.11707V1 [CS.CV] 21 Sep 2023PDF文件第2页

arxiv:2309.11707V1 [CS.CV] 21 Sep 2023PDF文件第3页

arxiv:2309.11707V1 [CS.CV] 21 Sep 2023PDF文件第4页

arxiv:2309.11707V1 [CS.CV] 21 Sep 2023PDF文件第5页

相关文件推荐